4 research outputs found

    Word Embeddings in Sentiment Analysis

    Get PDF
    In the late years sentiment analysis and its applications have reached growing popularity. Concerning this field of research, in the very late years machine learning and word representation learning derived from distributional semantics field (i.e. word embeddings) have proven to be very successful in performing sentiment analysis tasks. In this paper we describe a set of experiments, with the aim of evaluating the impact of word embedding-based features in sentiment analysis tasks.Recentemente la Sentiment Analysis e le sue applicazioni hanno acquisito sempre maggiore popolarità. In tale ambito di ricerca, negli ultimi anni il machine learning e i metodi di rappresentazione delle parole che derivano dalla semantica distribuzionale (nello specifico i word embedding) si sono dimostrati molto efficaci nello svolgimento dei vari compiti collegati con la sentiment analysis. In questo articolo descriviamo una serie di esperimenti condotti con l’obiettivo di valutare l’impatto dell’uso di feature basate sui word embedding nei vari compiti della sentiment analysis

    Proceedings of the Fifth Italian Conference on Computational Linguistics CLiC-it 2018

    Get PDF
    On behalf of the Program Committee, a very warm welcome to the Fifth Italian Conference on Computational Linguistics (CLiC-­‐it 2018). This edition of the conference is held in Torino. The conference is locally organised by the University of Torino and hosted into its prestigious main lecture hall “Cavallerizza Reale”. The CLiC-­‐it conference series is an initiative of the Italian Association for Computational Linguistics (AILC) which, after five years of activity, has clearly established itself as the premier national forum for research and development in the fields of Computational Linguistics and Natural Language Processing, where leading researchers and practitioners from academia and industry meet to share their research results, experiences, and challenges

    Strategie di rappresentazione di documenti mediante Word Embedding nei task di Sentiment Analysis

    No full text
    Il presente elaborato propone uno studio sulle strategie di rappresentazione dei documenti mediante Word Embedding nei compiti di Sentiment Analysis. Dopo un excursus storico-teorico, nella relazione vengono descritti i risultati di una grande quantità di esperimenti condotti per rispondere alle seguenti domande di ricerca: - quale effetto ha la dimensione del corpus dal quale si producono i word embedding sull'accuratezza del sistema di sentiment analysis? - quale impatto si ha usando word embedding estratti a partire da un corpus dello stesso genere (testi pubblicati su Twitter) di quello in seguito analizzato dal sistema di sentiment analysis, rispetto a embedding estratti da testi generici? - quale approccio per la creazione degli embedding (basato su parole o su n-grammi di caratteri) è più efficace nella sentiment analysis? - qual'è la migliore strategia di combinazione dei word embedding per rappresentare il testo all'interno di sistemi di sentiment analysis? - quale impatto ha l'uso dei word embedding delle diverse categorie grammaticali sull'accuratezza del sistema di sentiment analysis

    Minoan Linguistic Resources: The Linear A Digital Corpus

    No full text
    This paper describes the Linear A/Minoan digital corpus and the approaches we applied to develop it. We aim to set up a suitable study resource for Linear A and Minoan. Firstly we start by introducing Linear A and Minoan in order to make it clear why we should develop a digital marked up corpus of the existing Linear A transcriptions. Secondly we list and describe some of the existing resources about Linear A: Linear A documents (seals, statuettes, vessels etc.), the traditional encoding systems (standard code numbers referring to distinct symbols), a Linear A font, and the newest (released on June 16th 2014) Unicode Standard Characters set for Linear A. Thirdly we explain our choice concerning the data format: why we decided to digitize the Linear A resources; why we decided to convert all the ranscriptions in standard Unicode characters; why we decided to use an XML format; why we decided to implement the TEI-EpiDoc DTD. Lastly we describe: the developing process (from the data collection to the issues we faced and the solving strategies); a new font we developed (synchronized with the Unicode Characters Set) in order to make the data readable even on systems that are not updated. Finally, we discuss the corpus we developed in a Cultural Heritage preservation perspective and suggest some future works.Published versio
    corecore